#Deep Research
OpenAI美女研究員爆料Deep Research如何從儲備項目中脫穎而出? | 建構通用Agent心法
OpenAI一直「任何人有點子,都可以去驗證、去推動、最終把它做出來」的文化。 OpenAI 研究員Isa說驅動我工作的往往是那些我自己會用到的東西,例如Deep Research。今天跟大家分享的是No Priors訪談最新一期訪談。正好OpenAI 剛剛宣佈,Deep Research 從今天起免費向所有美國使用者開放。。讓我們跟隨矽谷AI投資女王Sarah的訪談來瞭解這個研究Agent背後的故事。在本期No Priors訪談中,Sarah和Isa 深入聊聊這個專案的緣起,人類專家資料在其中扮演了什麼角色,以及要怎樣才能打造出既能解決現實問題、甚至還懂「品味」的AI 智能體。 Isa 也會分享Deep Research 和OpenAI o3 模型的不同之處,開發過程中遇到的延遲挑戰,以及她對未來智能體能力發展的看法。Deep Research產生於OpenAI研究員的副業中,設計之初就定位為專注海量資訊整合類的「唯讀」任務,避免高風險操作,例如其他agent喜歡演示的簡單交易場景。Deep Research採用強化微調(RL Fine-Tuning),結合人類專家資料與合成資料集。Deep Research資料選取上採取的「廣撒網」的策略,廣泛收集了各種專業領域的資訊收集場景資料,並未深入某個特別領域。因為強化學習能夠在訓練中自己摸索出從問題到答案的路徑。通往通用智能體的清晰路徑,由高品質資料整理、完備工具整合、可衡量任務設計,以及預訓練與強化學習的循環互促共同構成。當你有一個非常具體、定義明確的問題時,這個問題需要引導模型去檢索特定的資訊來源,或是聚焦在某些方面Deep Research 通常表現較好,而不是O3。當然基礎模型也很重要,在一個類型的任務上訓練,模型的能力也能遷移到其他領域。比方說,你主要用數學、程式設計和其他推理類問題訓練出來的O3模型,它寫東西的能力也會不錯。Deep Research 會一直專注於那些需要最長處理時間的複雜任務。而像o3 或O-next(下一代模型)可能會在「快」和「深入」之間找到更好的平衡。未來Deep Research的產品路線,下一步是讓它能存取私人資料,再往後執行寫入操作或是呼叫API 了。Deep Research 的誕生與演進Sarah: 聽眾朋友們大家好,歡迎回到No Priors。今天我的來賓是 Isa Fulford,她是OpenAI 開創性的Deep Research 計畫的幕後功臣之一。這是OpenAI 今年2 月發佈的一款新型智能體產品,它能利用推理能力和網頁瀏覽等工具,幫你完成比較複雜、需要多個步驟的研究任務。好消息是,從今天起,這款產品將免費提供給所有美國使用者。歡迎Isa! Isa,非常感謝你今天能來。Isa: 謝謝你的邀請,很高興來到這裡。Sarah:  Isa,你和你的團隊最近推出的Deep Research 無疑是近期最令人興奮的AI 產品之一了,我自己也常用。能和我們聊聊這個想法最初是怎麼來的嗎?它的誕生背後有什麼故事?Isa: 好的。大概一年前吧,我們內部對一種新的強化學習演算法的進展感到特別興奮,發現它在解決數學、科學和程式設計問題上進步神速。正好那段時間,我和我在OpenAI 的朋友Yash 一起在鼓搗幾個業餘項目,我們倆都對「智能體」(agents)這個方向很著迷,就在想,能不能把同樣的演算法用到普通人日常會做的那些任務上呢?我們最先想到的兩個方向是:一個是在線上研究,因為很多職業都需要做大量的資料蒐集、資訊整合,最後寫成報告;另一個是軟體工程。我們在這兩個方向上都做了一些探索,而我主要負責的是瀏覽研究這塊。一開始,像數學題、程式設計題這些,大家已經在用現成的資料集訓練了,例如有標準答案的數學題,可以直接用。但瀏覽任務就不一樣了,它更開放,沒什麼現成的資料集。所以,我們反過來,先去明確我們希望最終的模型能在那些實際場景下表現出色。我們當時真的會列出很多具體的需求,比如,“我希望模型能幫我找到幾款產品,並根據Reddit 上的評價給排個序”,或者“我希望它能幫我針對某個主題寫一篇文獻綜述”。Sarah: 我發現,很多人一想到“瀏覽”和“智能體”,腦子裡冒出來的往往就是那兩三個常見的交易場景,比如在DoorDash 上訂個漢堡什麼的,老實說我覺得這些想法沒什麼新意。訂花好像也是老生常談的例子。你們當時是怎麼想到要為智能體設定一套如此不同的目標的呢?Isa: 在我們著手讓智能體學會執行「正確的操作」(就像你剛才舉的那些例子)之前,我們更希望它能先精通一件事:從海量資訊來源裡高效地整合訊息,主要專注於「唯讀」類型的任務。這麼做有幾個原因:第一,現實中大量的知識型工作,核心內容其實就是資訊整合,所以這對從事這類工作的人來說會非常有價值。第二,OpenAI 的長遠目標是創造能夠做出新科學發現的通用人工智慧(AGI)。我們覺得,能夠有效率地整合資訊是實現這個目標的基礎。你想想,如果連文獻綜述都寫不好,又怎麼可能寫出開創性的科學論文呢?所以,這個方向和公司的大目標是高度一致的。Sarah: 這也蠻有趣的,你幫助創造了一個能讓我學得更好的AI,而這個AI 本身也不斷在學習。Isa: 哈哈,你這麼一說還真是,我之前倒沒這麼想過。這個角度挺好玩的。另外,從更實際的角度來看,「唯讀」任務在安全方面的風險相對更容易控制,所以從這裡起步也是個比較穩健的選擇。Sarah: 確實,在「唯讀」這個領域,好像以前大家也沒像你和Yash 想得那麼遠,沒期待它能理解這麼多東西。Isa: 好的,所以你們先構思了最終的評估標準(end eval),然後設計了一系列可以自動打分數或有特定屬性的任務,讓它們更適合用那些演算法來訓練。接下來呢?Isa: 光是這個過程本身就相當複雜了。我們一開始做了一個示範(demo)去向大家「兜售」這個想法。那個demo 裡其實根本沒有經過訓練的模型,只是用提示語(prompt)驅動的模型,配上一個使用者介面(UI),用來展示這個產品未來的願景。有了這個demo 之後,我們才真正開始琢磨俱體要怎麼落地:數據怎麼來?模型怎麼訓?需要開發那些工具才能讓模型有效地在網路上瀏覽資訊?整個過程充滿了反覆的嘗試和調整。我和Edward Sun 還有其他幾位同事合作得非常緊密。我們也跟著強化學習(RL)團隊進行了大量的協作。這絕對是個大工程。比較幸運的是,我們有好幾個月的時間可以不受打擾地專心工作,一門心思地提升各項評估指標。我覺得能有這樣的空間,不用急著趕工上線,可以踏實地反覆迭代,把產品打磨到比較理想的狀態,真的很棒。Sarah: 在這些任務裡,有沒有那一個是你覺得特別有代表性,或是說最重要的?Isa: 我們有好幾個大家覺得蠻有趣的任務。其中一個是找出Liam Felis 和Barrett Zoff 合著的所有論文,我記得好像是11 篇。現在的模型基本上能找到大部分,甚至全部了。我們以前老拿這個問題考它。還有一個,模型現在可能因為某些原因答不出來了,就是找出我們一個同事的中間名。就我個人而言,我很早就開始用它來幫我查各種資訊了,像是找產品推薦、做旅行計畫什麼的。實際上,公司內​​部很多人都在用。我們當時搭了Streamlit 的內部試用平台,很多人發現之後就一直在使用。 Sam Altman 還跟我說他用這個買了不少東西。每次平台一出問題掛掉了,就會有人來問我們:「嘿,怎麼回事?我們等著用呢!」那怕是在早期版本,說實話效果還不太行的時候,大家就已經挺依賴它了。我覺得這是一個非常正面的早期訊號。資料準備Sarah: 那我們聊聊實際工作中的重點吧,例如工具開發和資料準備這塊,你有什麼可以分享的嗎?Isa: 資料這塊,我們嘗試了很多不同的方法。有些數據是靠人類訓練師來標註的。我們得琢磨出新的方法,設計新的資料型態。關鍵是要想清楚,怎麼設計資料集才能有效地鍛鍊我們希望模型掌握的那些技能。然後,還得設計一套評估方法,在訓練過程中給這些數據打分數。同時,你也得給模型發展好用的工具,讓它能真正順利地完成任務。目前,我們只有一個瀏覽工具,是個以文字為主的瀏覽器,但它能看到網頁裡嵌入的圖片,也能開啟PDF 檔案。此外,它還能呼叫Python 工具,用來做數據分析、計算、畫圖表什麼的。可以預見,未來的版本會不斷增加新的工具,模型的能力也會越來越強。但對應的,我們也需要不斷創建新的資料集,讓模型在訓練中能充分練習使用這些不同的工具,學會怎麼組合運用、怎麼發現走錯了路再退回來等等。只有這樣,它才能在實際應用中靈活地解決用戶提出的各種新問題。強化學習微調(Reinforcement Fine-tuning)Sarah: 現在看來,在強大的基礎模型上做強化學習微調(RFT)確實能帶來實實在在的好處,這太令人興奮了。對於那些正在考慮要不要針對某個特定任務做RFT 的新創公司或其他公司,你有什麼建議嗎?例如,什麼情況下值得投入去做RFT,什麼時候又可以只用傳統的方法,把智能體當作一個模組來調度(orchestration)就行了?Isa: 總的來說,如果你針對某個特定任務去訓練模型,那它在這個任務上的表現肯定會更好,這是毋庸置疑的。但我們也發現,在一個類型的任務上訓練,模型的能力也能遷移到其他領域。比方說,你主要用數學、程式設計和其他推理類問題訓練出來的模型,它寫東西的能力也會不錯。當然,如果你專門針對寫作任務訓練它,效果肯定會更上一層樓。我的建議是這樣:如果你手頭上有個非常具體的任務,而且你覺得這個任務和你已知的模型訓練數據差別很大,你自己試了很多次,換了各種提示語,效果就是不理想——比如說,某個特別專業的基因測序任務,或者其他對模型來說完全是“圈外”(out of distribution)的知識,模型壓根不知道我從何下開始就值得加強還有一種情況:如果某個任務對你的核心業務流程來說至關重要,效能提升個10%、15% 就能決定生死存亡,那或許也應該嘗試RFT。但是,如果某個任務,你覺得模型大體上做得還行,就是偶爾會犯錯,而且你觀察到每次OpenAI 發布新模型,它在這方面的表現都會好一點點,那可能就沒必要花大力氣去做RFT 了,因為模型本身就在自然而然地進步。這就是我的看法。為何人類專家數據如此重要Sarah: 非常中肯的建議。你剛才提到需要靠人類專家來準備一部分數據。我一直覺得「瀏覽」這事兒挺普遍的,當然,瀏覽水平有高有低。你覺得具體在那些環節需要專業知識?或者說,在資訊收集和瀏覽這方面,你有什麼是以前沒意識到的新發現嗎?Isa: 嗯,這事吧,其實幾乎所有產業都一樣:你總是會遇到問題,或是想研究某個領域,然後就得從各種地方找資料,最後總結成一個答案。在這個過程中,你就得運用專業知識來判斷:這個來源可靠嗎?這個資訊有沒有用?這個該不該放進來?這個是不是扯遠了?等等。這幾乎是所有工作、所有研究領域共通的。強化學習的厲害之處在於,你不一定需要知道專家完成研究的每一步具體是怎麼做的,你只需要告訴模型任務是什麼,以及理想的結果應該是什麼樣,模型就能在訓練中自己摸索出從問題到答案的路徑。所以,我們採取了比較「廣撒網」的策略。我覺得在OpenAI 這樣的地方工作,可能就有條件做一些通常不建議新創公司做的事,就是同時面向非常廣泛的用戶群體,去請教各個不同領域的專家,看看能不能讓模型一下子在所有方面都做得不錯。我們當時就是這麼幹的。當然,我們也自己造了很多合成數據之類的,但真人專家的數據,對於這個模型的成功絕對是功不可沒的關鍵一環。Sarah: 在這些不同的領域裡,模型自己學到的規劃方式有沒有讓你覺得出乎意料的地方?例如,它為了找到那個完美的手袋、日本的某家餐廳,或是一系列相關的論文,所採取的步驟和想法?Isa: 有時候它會用一些我可能壓根想不到的搜尋關鍵字。而且,我們並沒有一開始就教它怎麼做規劃,但有時會發現,它在開始研究之前,確實會自己先制定一個計劃。還有的時候,模型會耍點小聰明,試圖繞過你給它設的限制。所以你得時時刻刻留意,別讓它「黑」了你的系統,比如說,偷偷用你沒授權給它的搜尋引擎什麼的。它會乾出些聰明的“壞事”,你得盯緊點,尤其是當你不想讓它這麼做的時候。Sarah: 也許我們可以藉這個機會,聊聊一些它可能「翻車」的地方(failure modes)。你是怎麼看待智能體常見的一些問題,例如誤差累積、容易“分心”,甚至安全隱患?智能體的「翻車」點Isa: 對於Deep Research 來說,因為它實際上乾不了那些會引發典型智慧體安全問題的操作,所以還好。但我確實覺得,正因為它給予的回應更全面、更詳盡,耗時也更長,人們可能會更容易相信它。所以,「一本正經地胡說八道」(hallucinations)這個問題可能會更突出。雖然這個模型產生幻覺的機率比我們發布過的任何模型都要低,但它還是有可能出錯,大多數情況是因為它錯誤地解讀了某個資訊來源。這也是我們為什麼堅持要加上引用的原因之一——讓使用者能方便地檢查資訊來源,這一點至關重要。如果發現資訊不對,使用者至少能找到源頭去搞清楚。但這確實是模型目前最大的短板之一,也是我們一直在努力改進的地方。至於未來的智能體,我覺得理想狀態下,它應該能為你做研究,也能替你採取行動。這就引出了一個更棘手的問題,需要我們好好解決。到那個時候,能力和安全就緊密地交織在一起了。如果一個智能體做事總是帶來意想不到的、你不希望看到的副作用,讓你沒辦法信任它,那它就沒什麼用了。打個比方,你讓它幫你辦件事,結果它中途發了封讓你尷尬的郵件,那這個任務就算失敗了。所以,我認為這將是一個更有趣、更難搞的安全領域,我們才剛開始著手應對。Sarah: 如果你現在還不好說,也沒關係。但你覺得,以後人們是會想要那種明確的「安全護欄」(guardrails)呢?還是說你覺得很多這類限制可以透過模型本身的學習來掌握?Isa: 如果你用過Operator(我猜你一定用過),你會發現,每次要執行寫入操作,它都會讓你確認一下。我覺得在起步階段,這樣做非常合理,你需要先和使用者建立信任。等模型能力越來越強,也許你看著它成功辦了幾件事,對它的信任度提高了,你可能就會放寬一些:「行吧,以後給這幾個人發郵件就不用每次都問我了,直接發吧。」但我確實認為,隨著這些智能體逐步推廣開來,我們肯定還是需要設置護欄和確認環節的。畢竟,在它們的能力還沒達到最終理想狀態之前,我們還是得確保有足夠的監督。不過我相信,它們最終會變得非常厲害,以至於我們會完全放心地讓它們替我們處理各種事情。Sarah: 你覺得Deep Research 這個產品,接下來在那些方面會有比較明顯的提升?Deep Research 的未來之路Isa: 嗯,它一定會向「可寫」操作擴展,你剛才其實也提到了。Sarah: 我覺得理想狀態可能是擁有一個全能型的智能體,什麼都能幹。任何你能交代給同事做的事情,它都應該能勝任。Isa: 那我們以後怎麼決定是「Sarah,這事你來做」還是「智能體,麻煩你做一下這個」?Sarah: 或者乾脆每次都先讓智能體試試看?Isa: 可能吧。如果是我自己的工作,我一定先讓智能體試試看。這似乎形成了一種模式:每次模型能力提升,人類需要介入的層面就越高,你讓它做的任務就越宏觀。但最終發起任務的還是人。打個比方,一年前我可能讓它幫我寫個函數,現在我讓它寫一整個檔案,也許明年它就能幫我搞定一個完整的PR(程式碼合併請求)了。所以我認為,我們還是會是那個「發號施令」的人。說回Deep Research,我覺得很明顯的下一步就是讓它能存取私人數據,例如能夠在你的內部檔案、GitHub 程式碼庫等等進行研究。Sarah: 這簡直是條金線!我們第一次見面的時候,你就在搞檢索(retrieval),我當時就想,這家公司不可能只有一個人在搞檢索吧!結果發現,條條大路通檢索啊!Isa: 嗯哼。所以我覺得能存取私有資料會非常酷。再往後,就是執行寫入操作或是呼叫API 了。當然,模型現在還有很多不完美的地方需要持續改進。但我覺得我們和強化學習團隊的合作模式特別棒。很多團隊會為RL 團隊的大規模訓練提供資料集,我們也貢獻自己的資料。然後,他們用海量的算力訓練出新模型,這個新模型就成了我們繼續進行微調的更好的起點。所以我感覺,能力是不斷疊加、滾雪球式地成長的。Sarah: 所以,這當初並不是一個低調的研究預覽版,而是一個從副業項目演變而來、在內部引起很大反響的項目。你是怎麼判斷那些想法適合OpenAI 或至少你自己獨立去做成產品,那些又該歸入核心的研究路徑呢?Isa:  OpenAI 有個很酷的地方在於,即使公司規模越來越大,那種「任何人有點子,都可以去驗證、去推動、最終把它做出來」的文化,我覺得一直都還在。至少在公司發展壯大的過程中,這種精神被保留了下來。就我個人而言,驅動我工作的往往是那些我自己會用到的東西。例如Deep Research,我確實常用它來查各種東西,像是旅行推薦什麼的。我大概算是個重度日活用戶了。Sarah: 能「吃自己的狗糧」(dogfooding)感覺很棒吧。Isa: 哦,太爽了。是啊,我可是燒了不少GPU 啊。Sarah:有沒有那些使用場景,例如因為你是最初的專家,所​​以你或Yash,或是你觀察到使用者群體是這麼用的,而你也鼓勵大家這樣去用Deep Research?Isa: 我特別有興趣看人們在那些我完全不懂的領域裡用它。比如說醫學研究,或是看到很多不同領域的科學家發文說他們怎麼用Deep Research,以及它怎麼幫他們解決了問題。對我來說,這是最有趣的,因為我們開發的時候,我根本無法判斷輸出結果的好壞。所以,能看到真正的專家認可Deep Research 的回答,這非常有價值。還有一個讓我有點意外的領域是程式碼搜尋和解決程式設計問題。例如有人會讓它「用某個庫或倉庫的最新版本幫我寫這個檔案」。還有數據分析,這也是模型已經做得相當不錯,我認為會持續進步的領域。我覺得,上傳一個檔案,讓它幫你做點分析,或是先做點研究,然後產生一份有數據分析的報告,這都挺有趣的。Sarah: 這個我倒還沒試過。而且這也不算是個瀏覽任務啊。是什麼讓模型在這方面特別擅長?或者說它能做到什麼程度?它真的能處理多步驟的任務,並且能規劃、理解需求,最後產生一份條理清晰的報告嗎?Isa: 我覺得我們用來做微調的基礎模型,也就是 o3,本身就已經非常強大了。它是在各種各樣的資料集上訓練出來的,包括大量的程式設計、推理和數學任務。所以它繼承下來的底子就很好。當你在這個基礎上再加上瀏覽能力,它依然能做那些分析。所以我認為這兩者結合起來威力很強。Sarah: 播客開始前,我們剛好聊到讓AI 從用戶那裡學習「品味」或偏好。 OpenAI 最近也發布了一些「記憶」功能。你覺得Deep Research,或者說智能體這個大方向,未來要怎麼才能更好地理解使用者的學習習慣,或是他們喜歡用什麼方式來獲取資訊?智能體如何培養「品味」?Isa: 我認為智能體的「記憶」能力絕對會變得至關重要。要是每次讓它工作都得把你的要求、你的習慣、關於你的一切都重複一遍,那也太煩人了。目前Deep Research 確實是這樣。而且我覺得,隨著任務變得越來越複雜——現在完成一個任務可能需要5 到30 分鐘,你可以想像未來可能需要幾小時甚至幾天——你肯定希望模型的研究成果是能累積下來的,而不是每次都得從零開始。所以,雖然我現在還沒有一個完美的答案,但我認為這絕對是未來發展中非常重要的一環。Sarah: 現在很多頂尖實驗室的人都有共識,就是通往AGI 的「配方」大概是什麼樣,大家心裡或多或少都有點數了,或者說挺有信心的。強化學習的再度興起也讓大家很興奮。我從你和其他人那裡聽到的,都是既對“這路子看起來能行,我們能搞出真東西來”感到興奮,同時也認識到“這方法數據效率很高,但未來還有大量的工作要做”。可以跟我們聊聊你開發Deep Research 過程中的一些感受嗎?這段經歷有沒有改變你對未來的看法?建構通用智能體的經驗與路徑Isa: 你說的這些我都完全同意。看到演算法的數據效率這麼高,確實讓人印象深刻。我想,用來訓練的資料品質肯定要高得多,量也少得多,所以光是整理這些高品質的資料就是一項大工程。然後,你得確保模型能用上人類完成工作所需的所有工具。再然後,你還得想辦法把那些人們覺得有用、或者工作中實際會做的任務,用一種可以衡量模型做得好不好的方式表達出來,這也很難。相較之下,預訓練(pre-training)有大量的數據,但也面臨各種不同的挑戰。我覺得這只是挑戰的類型不同而已。而且兩者是互相促進的:你需要一個非常好的基礎模型才能做好強化學習,而對我們團隊來說,我們就是不斷地做更多的密集學習。所以,是的,這一切都是相輔相成、不斷滾雪球的。但我認為,大家確實都比較清楚地看到了通往這種「無所不能」的通用智能體的大致路徑。Sarah: 你覺得這條路上還有什麼大的「攔路虎」嗎?就像你剛才說的,也許不完全是Deep Research 的下一步,但就是我們離擁有那種統一的、感覺像同事一樣的智能體能力,還有多遠?中間還隔著什麼?Isa:有很多非常棘手的安全問題需要我們解決。我們絕對不會發布任何我們沒有十足把握確保其安全性的東西。而且我認為,當智能體能夠存取你的GitHub 倉庫、你的密碼、你的私人資料時,風險等級是完全不同的,要高得多。所以,這是一個巨大的挑戰。另外,如果你希望模型能執行那種需要好幾個小時甚至更長的任務,如何有效地管理「上下文」(context)也是個難題,這和「記憶」有點像。如果一個任務持續時間非常長,上下文視窗一定會不夠用,那怎麼能有效率地處理這個問題,讓模型能繼續跑下去?還有,就是我反覆提到的,準備資料和開發工具,這本身就是龐大的工作量。Sarah: 我剛剛翻了一下我的查詢記錄。我有個需求是:我想看看我對Deep Research 和其他模型分別提過那些要求,尤其是在我的「記憶」功能裡。不過範圍挺廣的,從很明顯的,比如我要快速瞭解某個我正在考察的公司的市場情況,或者某個技術主題,到旅行規劃,這是個大頭。我還用它找過一些跟「品味」相關的東西。例如我會說:“我喜歡這幾本書,原因是……我希望你能給我一個長篇總結,列出其他你認為我該讀的書,並解釋為什麼。”Deep Research vs. o3Sarah: 我發現,對於「什麼時候用Deep Research 比用o3 更好」,我腦子裡還沒有一個特別清楚的概念。你能給我點直覺上的建議嗎?Isa:當你有一個非常具體、定義明確的問題時,Deep Research 通常表現得更好。也許不是問某個主題的概覽,而是你在尋找某個特定的資訊點,並且你覺得這個資訊可以透過網路上的現有研究來補充──即使這些資訊也包含在我們訓練基礎模型的資料裡。我認為能夠即時存取最新的資訊還是非常有用的。Sarah: 所以,如果我的直覺告訴我,這個問題需要引導模型去檢索特定的資訊來源,或是聚焦在某些方面,那麼用Deep Research 會更有效?Isa: 我覺得是這樣。而且,我們訓練Deep Research 產生的回應通常比一般模型長很多,也更詳盡。所以,如果你需要一份非常全面的報告——當然,有時對於某些任務來說可能有點過於詳細了——那麼Deep Research 會很有幫助。Sarah: 能不能舉個Deep Research 處理時尚類任務的例子?Isa: 我用它找過新品牌。我會說:“我喜歡這幾個牌子,請幫我找找還有那些新牌子能買到類似這款的特定外套”,或類似的要求。它在這方面非常擅長。相比之下,我覺得基礎模型或普通模型可能會給你推薦一些品牌,但不一定能完全滿足我設置的所有條件,比如“我想要一件人造皮草的外套,要這個長度,是這一季的新款”,它可能就做不到,因為它沒有最新的資訊,也不一定能一次性處理好查詢裡所有的限制條件。Sarah:  o1的瀏覽功能沒那麼深入。Isa: 我會用Deep Research 來找那些特別具體、自己找可能要花好幾個小時的東西。例如,我在找一件非常特定的單品,或者一件毛衣,可能在The RealReal(二手奢侈品網站)或別的什麼地方有賣,但我就是找不到。或者我在找一個有非常具體要求的Airbnb 房源。我覺得Deep Research 很會處理這類需求。而對於那些更廣泛、更宏觀的問題,你應該用普通的搜尋工具。Sarah: 嗯,好吧。我必須承認,我確實有一些拖了好幾年的瀏覽/購物任務,我現在準備給Deep Research 寫個定時腳本(cron job)讓它去跑了。Sarah: 我想再問一個關於體驗的問題。在訓練Deep Research 的過程中,有沒有一個特別的成功案例或失敗案例讓你印象特別深刻,甚至有點驚訝?Isa: 這確實是那種情況:我們當初覺得,針對瀏覽任務進行訓練應該是可行的,感覺挺有把握的。但是,當你第一次用這個演算法、在一個全新的資料集上訓練模型,然後親眼看到它真的起作用了,並且能跟它互動時,那種感覺還是相當震撼的——即使我們本來就覺得它會成功。所以老實說,光是它效果這麼好這一點,就挺讓人驚喜的。Sarah: 嗯,即使你們本來就覺得它行。Isa: 如果你能明白我的意思的話。Sarah: 是的,是的。就是那種親身體驗到的,「哇,原來這條路真的走得通」的感覺。Isa: 完全正確。但反過來說,它有時在某些地方犯的錯誤也挺讓人驚訝的。例如,它明明能做出非常聰明的操作,但緊接著又會犯一個讓你匪夷所思的低級錯誤,讓你忍不住想:「你到底在幹嘛?快停下!」 所以我覺得肯定還有很大的改進空間。但是,總的來說,我們對模型目前的表現還是相當滿意的。Sarah: 我已經習慣了我所有的科技工具都是即時回應的。但 Deep Research 不是,它需要時間去思考、去調用工具。它有可能變得更快嗎?延遲(Latency)Isa: 我確實認為有一個很好的中間地帶。有時候你並不需要它做那麼深入的研究,但又希望它能比簡單的搜尋提供更多資訊。我覺得我們很快就會發布一些能滿足這種需求、讓大家滿意的產品,來填補這個空白。Sarah: 好吧。我不知道該怎麼表達我的偏好,但我希望未來能有個選項,讓我可以調節,比如告訴它:「在接下來五分鐘內,盡你所能做到最好就行。」因為我跟真人協作時就會這麼說。Isa: 是啊,你看,讓使用者來做這個決定,似乎不是一個好的使用者體驗(UX)。模型本身應該更智能,能自己判斷需要花多少時間思考才適合。我覺得我們在訓練模型時做了一個取捨,就是預設讓它每次都進行最充分的思考。所以我自己有時候也會為了測試,問它一個特別簡單的問題,然後看著它還在那兒轉圈圈,就覺得挺抓狂的。所以我確實認為這也是一個需要改進的地方:模型要學會判斷「思考多久才夠」。但是,是的,我估計Deep Research 會一直專注於那些需要最長處理時間的複雜任務。而像o3 或O-next(下一代模型)可能會在「快」和「深入」之間找到更好的平衡。Sarah: 你能想像未來Deep Research 花上一整天時間完成一個什麼樣的任務嗎?那得燒掉多少GPU 啊!Isa: 我想,任何… 我的意思是,現在它用5 到30 分鐘就能完成人類專家評估需要好幾個小時的工作。那麼以此類推,用一個小時,它或許就能完成人類需要幾天才能做完的事。用一天時間,它或許就能完成人類需要幾周才能完成的工作。當然,要讓它擴展到這種程度,一定會遇到很多挑戰。但我認為你可以想像一下,讓它做一個原本需要幾周時間才能完成的研究項目,或是寫一篇學位論文之類的。Sarah: 好吧,看來接下來的幾個月,我得讓我們的實習生和它比試比試了。Isa: 好啊,聽起來不錯。Sarah: 如果讓你展望一年之後──在AI 領域,一年可是相當長的時間了──你覺得到時候智能體能做到的、並且會實際發佈出來的能力中,有什麼會是讓大家感到驚訝的?當然,是在安全可控的前提下。智能體能力的預測Isa: 我希望有一個通用的智能體,能在許多不同的領域幫你完成大量的日常任務。例如對我來說,我寫很多程式碼,我希望到時候能有一個程式設計能力相當強的智能體,我可以​​放心地把任務交給它,然後它就能給我提交一個PR。但同時,也許我可以用同一個智慧體幫我預訂去韓國的機票飯店。我希望我們能走向一個更統一、更整合的體驗。但同時我也認為,這些模型能力提升的速度,對大多數人來說,將會是相當驚人的。Sarah: 為什麼覺得「統一的體驗」很重要?或者說,為什麼你覺得這是合理的?因為我覺得現在的情況挺分散的,顯然ChatGPT 是一種非常包容的體驗,但人們在不同場景下會用不同的模型,比如寫程式碼時用的那種「下一行補全」模型,感覺就是完全不同的設定。Isa: 我覺得你可能兩者都需要。你可能既想要一種能在某個時刻介入、打斷模型的體驗,比如告訴它“哦不,我不是那個意思”,或者乾脆自己接手過來開始寫點什麼。是的,尤其是在短期內,當模型在很多方面還不如人類,但在其他方面又比人類強的時候。所以我認為未來會是一種結合:你讓模型去做某事,但也許,還拿程式設計舉例,你同時也在你的VS Code 或其他編輯器裡,Cursor也在那兒,它在幫你幹活,但你也可以隨時自己上手敲程式碼,自己寫一部分。所以我認為會是這些方式的結合。但我內心有點希望它能成為某種就像… 就像你在Slack 上有個同事,或者一個遠端工作的搭檔,你可以隨時隨地讓他們幫你做事,給他們發條Slack 訊息,他們就開始幹活了,然後你可以檢查他們的工作,或者在需要的時候幫一把。這似乎是一種相當理想的通用互動方式,你不需要費腦筋去想“這個任務我該交給那個智能體?”,它應該自己就能搞定。Sarah: 我對此的理解是,我的基本理念其實是:我很喜歡和我一起工作的人。但考慮到溝通和管理的成本,如果其他條件相同,我更傾向於和更少的人一起工作,因為每個人掌握的資訊更全面,我對他們的瞭解也更深。所以,這種「萬能型」的智能體因為這個原因而特別有吸引力。你只需要告訴它一次,它就能記住,然後它會對你手邊所有的工作都瞭如指掌。大概是這樣。Sarah: 太棒了。 Isa,這次訪談非常精彩,謝謝你來參加節目,也謝謝你們團隊發佈了這麼棒的產品。Isa: 非常感謝你的邀請,也謝謝你使用Deep Research。 (通往ASI之路)
OpenAI辦公助手上線,40小時工作僅需1小時!
AI正以閃電般速度顛覆職場!😱OpenAI的Deep Research不只是聊天機器人,它能獨立思考、自主探索網路、點選連結並生成專業報告。想像一下:它能在幾十分鐘內完成你需要一周才能做完的研究!"Deep Research今天已經為我寫了6份報告" —— Stripe CEO Patrick Collison震撼發言💼 40小時工作量,只需1小時檢查!賓大沃頓商學院教授Mollick直言:"它能在一小時內完成中等水平的40小時工作量,你只需花一小時檢查。"這不是科幻電影,這是正在發生的現實!每月200美元,你就能擁有一個不知疲倦的研究助手,它會:自主制定研究計畫 ✓智能篩選資訊來源 ✓生成帶有引用和圖表的完整報告 ✓🧠 擁有"真正思考能力"的AI"有時它會說'我需要回溯,這條路似乎不太有希望',"OpenAI研究員Josh Tobin解釋,"它會像人類一樣思考問題!"而這僅僅是開始。OpenAI正考慮推出能完成"博士級工作"的高級代理,據報導每月收費可能高達2萬美元!🔮 AI代理已經到來GoogleDeepMind和埃隆·馬斯克的Grok也推出了類似工具,但Deep Research憑藉OpenAI最先進的o3推理模型領先一步。"我爺爺讓它證明Schroeder-Bernstein定理,它輸出了完整證明!"一位訓練員驚嘆道,"作為數學家,這讓他興奮不已。"當AI能在幾分鐘內完成專業報告,是助力還是威脅?這不再是"如果"的問題,而是"何時"的問題。你認為像Deep Research這樣的工具會如何改變你的工作?它會讓你更高效,還是最終取代你的崗位?在評論區分享你的想法,也別忘了把這篇文章轉發給同事——他們需要知道AI浪潮有多快! (澤問科技)